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摘 要 : [目的 /意义 ] 不 同类 型 的 小 麦 倒伏 (根部 倒伏 、 茎 部 倒伏 ) 对 产量 和 质量 会 产生 不 同 影响 。 本 研究 旨 在 
通过 无 人 机 图 像 对 小 麦 倒 伏 类 型 进行 分 类 ， 并 探究 无 人 机 飞行 高 度 对 分 类 性 能 的 影响 。[ 方 法 ] 人 研究 设置 3 个 无 人 
机 飞行 高 度 (15, 45, 91m) 来 获取 小 麦 试 验 田 的 图 像 ， 并 利用 自动 分 割 算法 生成 不 同 高 度 的 数据 集 ， 提 出 一 种 
EfficientNetV2-C 改进 模型 对 其 进行 分 类 识别 。 模 型 通过 引入 CA (Coordinate Attention) 注意 力 机 制 来 提升 网 络 特 
征 提取 能 力 ， 并 结合 CB-Focal Loss (Class - Balanced Focal Loss) 来 解决 数据 不 均衡 对 模型 分 类 准确 度 的 影响 。 
[结果 和 讨论 ] 改进 的 EfficientNetV2-C 表 现 最 佳 ， 平 均 准确 率 达 到 93.58%。 对 比 未 改进 的 4 种 机 器 学 习 分 类 模型 
(支持 向 量 机 (Support Vector Machine, SVM), K 最 近邻 (K Nearest Neighbor, KNN), WRP (Decision Tree, 
DT) 和 朴素 贝 叶 斯 (Naive Bayes, NB) ) 与 两 种 深度 学 习 分 类 模型 (ResNet 101 和 EfficientNetV2)， 其 中 Efficient- 
NetV2 在 各 个 高 度 下 表现 最 优 ， 平 均 准 确 率 达 到 82.67%。 无 人 机 飞行 高 度 对 4 种 机 器 学 习 分 类 器 性 能 无 显著 影响 ， 
但 随 飞行 高 度 上 升 ， 由 于 图 像 特 征 信息 损失 ， 深 度 学 习 模 型 的 分 类 性 能 下 降 。[ 结 论 ] 改进 的 EfficientNetV2-C 在 
小 麦 倒伏 类 型 检测 方面 取得 了 较 高 的 准确 率 ， 为 小 麦 倒伏 预警 和 农作物 管理 提供 了 新 的 解决 方案 。 
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1 引言 量 的 主要 原因 "”。 作 物 的 倒伏 类 型 主要 分 为 茎 部 
倒伏 与 根部 倒伏 。 茎 部 倒伏 多 由 自然 灾害 引起 ; 根 
小 麦 作为 世界 最 主要 的 农作物 之 一 ， 其 产量 对 。 ”部 倒伏 主要 由 土壤 条 件 ( 如 氮肥 过 多 )、 病 虫害 或 


国家 粮食 安全 有 着 重要 的 影响 。 倒 伏 是 影响 小 麦 产 ”耕作 不 当 引 起 ”。 研 究 表明 ， 小 麦 倒伏 会 造成 减 
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产 ， 增 加 收获 难度 ， 延 长 收获 时 间 ， 并 降低 小 麦 品 
质 “。 其 次 ,小麦 的 倒伏 时 间 与 类 型 是 影响 产量 
的 主要 原因 之 一 ， 且 根部 倒伏 的 时 间 越 时 对 小 麦 产 
量 影 响 越 大 中 。 因 此 ， 对 小 麦 倒伏 类 型 的 实时 监测 
与 评估 对 于 小 麦 产量 和 品种 选 育 至 关 重 要 。 传 统 的 
小 麦 倒伏 类 型 监测 方法 主要 依靠 人 工 现 场 评估 ， 费 
时 费力 ， 并 且 由 于 人 工 评价 的 主观 性 ， 可 能 导致 评 
佑 结果 缺乏 客观 性 和 准确 性 “。 随 着 计算 机 技术 的 
发 展 ， 视 觉 监 测 手 段 作 为 一 种 低 成 本 、 准 确 、 人 快 
速 、 客 观 的 作物 倒伏 类 型 检测 方法 ， 对 于 小 麦 的 实 
时 监测 和 倒伏 类 型 评估 具有 重要 意义 ， 能 够 为 提高 
小 麦 产量 和 品种 选 育 提供 关键 支持 。 

近年 来 ， 随 着 无 人 机 技术 与 传感器 技术 的 快速 
发 展 ， 近 地 面 遥 感 技 术 被 广泛 应 用 于 农业 生产 领 
域 。 与 卫星 技术 和 三 维 图 像 技 术 相 比 ， 无 人 机 搭载 
视觉 传 感 硕 获取 网 像 的 方法 因 其 高 机 动 性 、 实 时 性 
和 经 济 性 在 农业 生产 领域 取得 令 人 满意 的 结 
果 "“ 中 。 然 而 ,考虑 到 应 用 的 实时 性 与 传感器 成 本 
等 问题 ， 性 价 比较 高 的 RGB 相机 是 检测 小 麦 倒伏 
类 型 的 最 优选 择 。 通 过 RGB 相机 采集 的 高 分 辨 率 
图 像 进行 倒伏 类 型 的 监测 ， 需 要 开发 适合 的 算法 。 
现 有 人 针对 图 像 处 理 的 方法 ,根据 特征 提取 的 方法 可 
分 为 传统 机 器 学 习 和 深度 学 习 ""。 传 统 机 器 学 习 
在 提取 特征 时 ， 通 常 需要 手工 选择 或 设计 特征 ， 随 
后 将 提取 的 特征 输入 到 机 器 学 习 分 类 器 ， 如 使 用 支 
持 向 量 机 (Support Vector Machine，SVM) 、 随 机 
森林 (Random Forest, RF) 和 KK 最 近邻 (K Near- 
est Neighbor，KNN) 进行 小 麦 倒伏 与 非 倒 伏 的 分 
2", Rajapaksa $E |" 通过 提取 图 像 的 灰 度 共生 算 
阵 (Gray-level Co-occurrence Matrix，GLCM) 训 
练 SVM 分 类 右 ， 实 现 小 麦 与 油 业 的 倒伏 预测 。 同 
时 ， 多 项 研究 证 明基 于 深度 学 习 的 分 类 器 要 优 于 机 
器 学 习 分 类 器 7。 基于 深度 学 习 的 分 类 模型 在 提 
取 特 征 时 ， 能 够 自动 从 原始 数据 中 学 习 高 低层 次 的 
抽象 特征 ， 而 机 豆 学 习 分 类 器 需要 手动 提取 特征 。 
Yu 等 ”提出 一 种 结合 小 麦 不 同 生长 阶段 无 人 机 图 
像 特征 的 倒伏 检测 模型 。 该 模型 以 金字 塔 场景 分 析 
网 络 (Pyramid Scene Parseing Network, PSPNet) 
模型 为 基础 ， 结 合 长 短 时 记忆 结构 (Long Short- 
Term Memory，LSTM) 、 卷 积 注意 力 模块 (Convo- 


lutional Block Attention Module，CBAM) 和 Tver- 
sky 损失 水 数 进行 改进 。 改 进 后 的 Lstm_PSPNet 
(Long Short-term Memory Pyramid Scene Parseing 
Network) 预测 精度 均 高 于 90%， 能 够 有 效 地 预测 
不 同 生长 阶段 的 倒伏 区 域 。Zhang 等 … 采用 无 人 机 
提取 小 麦 试验 田 图 像 ， 通 过 提取 图 像 的 5 种 特征 ， 
并 采用 3 种 机 需 学 习 分 类 模型 RF、 卷 积 神经 网 络 
(Convolutional Neural Network，CNN) 和 SVM 对 
不 同日 期 的 倒伏 小 麦 进行 分 类 ， 结 果 显 示 ， 不 同日 
期 采集 的 数据 并 不 影响 模型 的 分 类 性 能 ， 且 
GoogLeNet 的 平均 准确 率 最 高 为 93%。 但 上 述 及 现 
有 研究 中 ， 大 多 将 小 麦 倒伏 状态 粗略 地 划分 为 倒伏 
与 非 倒伏 ， 并 未 进一步 对 倒伏 类 型 细 化 ， 给 小 麦 种 
植 者 选择 抗 倒伏 类 型 品种 与 田间 管理 带 来 困难 。 
Neupane 等 ”利用 无 人 机 在 3 种 不 同 高 度 (40、 
50, 60m) 下 获取 香蕉 的 RGB 图 像 ， 采 用 基于 In- 
ception-V2 的 Faster R-CNN 作为 主要 特征 提取 器 ， 
检测 图 像 中 的 香 磋 并 计数 ,结果 表 明 ， 无 人 机 的 飞 
行 高 度 会 影响 模型 检测 的 性 能 与 计数 的 准确 性 。 然 
而 ， 现 有 研究 缺乏 对 无 人 机 飞行 高 度 是 否 影响 分 类 
模型 性 能 的 验证 。 

针对 上 述 研究 存在 的 问题 ， 本 研究 基于 无 人 机 
图 像 提出 一 种 小 麦 试验 田 自 动 分 割 算 法 。 这 种 算法 
能 够 根据 需求 将 获取 的 图 像 自 动 分 割 并 保存 。 随 后 
提出 一 种 改进 的 EfficientNetV2-C 深度 学 习 分 类 模 
型 ， 引 入 增强 特征 提取 能 力 的 CA (Coordinate At- 
tention) 注意 力 机 制 与 用 于 解决 类 别 不 平衡 问题 的 
fit 4 pk BL CB-Focal Loss (Class-Balanced Focal 
Loss)， 并 对 比 4 种 机 需 学 习 分 类 模型 与 深度 学 习 模 


型 分 类 性 能 ， 探 讨 了 无 人 机 飞行 高 度 对 模型 分 类 性 
能 的 影响 。 


2 材料 与 方法 


为 检测 生长 过 程 中 小 麦 的 倒伏 类 型 ， 并 探究 无 
人 机 飞行 高 度 对 分 类 模型 的 影响 ， 研 究 按照 如 下 流 
程 进 行 (图 1)。 首 先 , 无 人 机 在 3 个 不 同 高 度 
(15、45、91 m) 下 采集 小 麦 试 验 田 的 高 清 数字 图 
像 ， 并 通过 人 工 方式 获取 其 倒伏 类 型 。 然 后 ， 通 过 
设计 的 自动 分 割 算法 为 每 个 高 度 生成 单独 的 数据 
集 。 其 次 ， 对 比 传统 机 器 学 习 与 深度 学 习 模 型 分 类 
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性 能 ， 选 择 最 优 分 类 性 能 模型 ， 并 进一步 改进 。 最 
后 ， 对 改进 后 的 网 络 模型 进行 评价 ， 以 验证 其 在 小 
麦 倒伏 分 类 问题 上 的 效果 。 


TENERE 


É 图 像 自 动 生成 ON 
| | 无 人 机 图 像 数 据 预 处 理 ) 


| 无 人 机 图 像 数据 自动 标号 |! 
l i 


H 1 
!| 无 人 和 图 像 数 据 自动 分 着 |) 


机 器 学 习 


(Dt Rae) 


不 同 高 度数 据 间 独 建 模 
(比较 不 同 模型 训 终 效 果 ， 利 用 精度 评价 ) 


图 1 小 麦 倒伏 类 型 检测 序 流程 图 


Fig. 1 Flowchart of wheat lodging types detection 


2.1 数据 采集 


在 本 研究 中 ,使 用 大 疆 精 录 Phantom 4 Pro V2.0 
无 人 机 采集 RGB AR, RAK) A 5472 X3078。 
拍摄 时 间 为 2020 年 8 月 23 日， 拍摄 地 点 为 美国 北 


达科他 州 汤普森 市 (UTM WGS 84 14 N)， 当 天 光 
照 条 件 充 足 。 为 保证 能 够 完整 拍摄 小 麦 试验 田 ， 无 
人 机 飞行 最 低 高 度 为 15 m， 最 高 高 度 为 901 m， 并 
选取 45 m 作 为 中 间 参 考 值 。 通 过 无 人 机 在 3 个 不 同 
的 飞行 高 度 (15、45、91 m) 采集 小 麦 试验 田 的 高 
清 图 像 。 其 中 ，15 m 时 图 像 分 辨 率 为 0.4 像 素 /cm; 
45 m 时 图 像 分 辨 率 为 1.2 像素 /cm; 91 m 时 图 像 分 
辩 率 为 2.5 像 素 /cm。 所 有 数据 均 来 自 同一 天 。 为 获 
得 小 麦 试 验 田 真实 的 倒伏 类 型 信息 ， 在 无 人 机 采集 
图 像 后， 由 农艺 专家 对 试验 田 进行 主观 观察 ， 并 将 
麦田 的 倒伏 类 型 分 为 未 倒伏 、 根 部 倒伏 和 葵 部 倒 
伏 ， 以 此 准确 获取 倒伏 情况 ， 为 后 续 人 研究 提供 可 靠 
的 数据 基础 。 


2.2 数据 自动 生成 


本 人 研究 采用 无 人 机 采集 的 高 清 图 像 进 行 小 麦 试 
验 田 的 分 析 ， 共 包含 464 块 小 试验 田 。 这 些 试验 田 
分 为 两 类 : 116 块 尺寸 为 1.5mX15.0m 的 矩形 小 麦 
试验 田 ， 以 及 348 块 尺寸 为 1.5 mX3.7 m 的 矩形 小 
麦 试验 田 。 以 往 传统 的 试验 田 分 割 方法 需要 人 工 手 
动 操作 ,耗费 大 量 时 间 和 精力 。 为 解决 这 一 问题 ， 
本 研究 提出 一 种 自动 分 割 算法 ， 步 又 如 图 2 所 示 。 


该 算法 可 以 根据 实际 需求 自动 分 割 完整 的 小 考试 
验 田 。 


Ca) 原始 样本 


Ch) 分 割 样本 (8) 图 像 二 次 分 割 


Cb) 感 兴 趣 区 域 提取 


= = 
EOAR ENO TET EEN 
=e 


Cf) 获取 分 割 坐标 


Ce) 图 像 初 次 分 割 


图 2 模型 数据 集 自动 生成 过 程 图 


Fig. 2 Diagram of the process of automatic model dataset generation 


原始 试验 田中 包含 两 种 长 度 的 矩形 试验 田 。 为 
获取 单个 分 割 样本 ， 本 研究 需 对 无 人 机 获取 的 原始 


样本 多 次 分 割 ， 以 获取 单个 分 割 样本 在 图 像 中 的 绪 
构 参 数 与 类 型 。 鉴 于 小 麦 试验 田 在 原始 样本 中 所 占 


区 域 较 大 ， 并 且 其 颜色 与 土壤 颜色 相差 较 大 ， 本 研 


究 选择 超 绿 图 像 分 割 方法 来 提取 感 兴趣 区 域 。 具 体 
操作 步骤 如 下 。 

(1) 感 兴趣 区 域 提取 。 将 原始 样本 的 RGB 图 
像 利 用 超 绿 算法 提取 绿色 部 分 并 二 值 化 ， 随 后 利用 
边缘 轮廓 检测 算法 提取 二 值 图 的 轮廓 并 根据 轮廓 大 


Vol. 5, No. 3 


龙 佳 宁 等 : 利用 改进 EfficientNetV2 和 无 人 机 图 像 检 测 小 麦 倒伏 类 型 65 


小 标号 排序 ， 最 终 选取 最 大 轮廓 并 获取 4 个 角 点 的 
坐标 值 根据 实际 图 片 进行 微调 ， 从 而 分 离 出 主体 与 
背景 ， 如 图 2 (b) 所 示 ， 实 现 感 兴趣 区 域 的 提取 。 

(2) 图 像 初次 分 割 。 如 图 2 (c) 所 示 ， 将 感 兴 
趣 区 域 二 值 化 ， 其 中 白色 像素 ( 值 =1) 表示 作物 ， 
黑色 像素 ( 值 =0) 表示 土壤 。 随 后 ， 利 用 先 腐蚀 后 
膨胀 的 算法 填充 白色 区 域内 细小 的 空洞 ， 并 连接 邻 
近 像 素 ， 平 滑 边界 。 最 终 ， 如 图 2 (d) Prax, 采用 
Canny 等 算 子 提取 边缘 轮廓 ， 以 获取 4 个 角 点 在 图 
像 中 的 像素 坐标 对 图 像 进行 初次 裁剪 ， 如 图 2 (e) 
所 示 ， 并 计算 长 矩形 单个 试验 田 样本 的 结构 参数 。 

(3) 分 割 坐 标 值 自动 获取 与 图 像 二 次 分 割 。 如 
图 2 (O 所 示 ， 为 获取 得 矩形 试验 田 的 结构 参数 ， 
首先 对 初次 分 割 的 图 像 进行 二 值 化 ， 并 提取 边缘 轮 
BB: 其 次 通过 遍历 像素 点 并 累加 像素 值 的 方法 ， 导 
找 像素 累加 值 突 增 点 ， 从 而 获取 长 矩形 与 短 矩 形 试 
验 田 的 分 割 坐标 点 (X) 的 值 ; 最 终 根据 X 值 分 割 
出 长 矩形 与 短 矩 形 试 验 田 ， 如 图 2 (g) 所 示 ， 并 获 
取 短 矩形 单个 试验 田 结 构 参 数 。 

(4) 根据 上 述 步 又 获取 的 两 种 矩形 结构 参数 ， 
算法 将 会 按照 实际 需求 给 小 麦 试验 田 自动 标号 ， 并 
将 其 分 制 成 单独 的 样本 ， 如 图 2 (h) 所 示 。 最 终 ， 
根据 标号 值 顺序 保存 424 张 分 割 样本 图 像 。 


2.3 数据 预 处 理 


2.3.1 数据 集 分 类 

通过 自动 分 割 算法 将 无 人 机 图 像 分 为 424 张 图 
像 ， 结 合 农艺 专家 获取 的 倒伏 类 型 数据 ， 将 无 人 机 
图 像 按 图 3 标准 ， 分 为 未 倒伏 (202 张 ) 、 蔡 部 倒伏 
(151 张 ) 和 根部 倒伏 (71 张 ) 3 类 。 
2.3.2 ”数据 增强 

本 研究 采集 的 数据 量 较 小 且 样 本 类 别 分 布 不 均 
匀 。 为 增加 模型 训练 的 样本 多 样 性 ， 提 升 模型 泛 化 
能 力 ， 改 善 模型 的 鲁 棒 性 ， 并 减少 过 拟 合 的 风险 ， 
对 小 麦 倒伏 数据 进行 数据 增强 处 理 。 数 据 增强 方式 
主要 包括 离线 数据 增强 和 在 线 数据 增强 两 种 方式 。 
本 研究 采用 适用 于 数据 量 较 小 的 在 线 增强 方式 对 数 
据 进 行 增强 操作 ， 如 图 4 所 示 ， 增 强 方法 包括 5 种 : 

(1) 缩放 (Resize) 操作 。 通 过 缩放 操作 将 所 
有 图 像 尺 寸 统 一 


(a) 未 倒伏 (b) 革 部 个 供 C6) 根部 倒 AR 
图 3 不 同 小 麦 倒 伏 类 型 无 人 机 图 像 示意 图 


Fig. 3 Schematic diagram of different wheat lodging types 


based on UAV images 


(2) 随机 旋转 (Random Rotation，RR)。 根 据 
概率 将 图 像 进行 随机 旋转 ， 模 拟 在 不 同 视角 下 拍摄 
的 图 像 增 加 数据 类 型 。 

(3) 水 平 、 垂 直 和 镜像 (Horizontal and Vertical 
HVM)。 以 X 或 了 轴 为 镜像 轴 ， 翻 转 图 
像 ， 增 加 数据 多 样 性 。 

(4) 随机 遮挡 (Random Distribution, RD). 
模拟 真实 环境 视野 遮挡 。 

(5) 随机 颜色 抖动 (Random Color Dithering, 


Mirroring, 


RCD)。 更 改 图 像 的 对 比 度 、 明 亮度 、 颜 色 等 模拟 
在 不 同 光照 条 件 下 拍摄 的 图 像 。 


(b) 镜 像 (d) 遮 挡 (e)MEHA 


(a) 原 图 (Cc) 旋转 


图 4 数据 增强 方式 可 视 化 图 


Fig. 4 Visualization of the data enhancement approach 


2.3.3 数据 划分 

本 研究 通过 数据 增强 共 获 取 2120 张 图 像 ， 将 
数据 集 以 8 : 1 : 1 的 比例 随机 分 成 训练 集 、 验 证 集 
和 测试 集 。 其 中 ， 训 练 集 图 像 为 1696 张 ， 验 证 集 
与 测试 集 图 像 各 212 张 。 训 练 集 和 验证 集 用 于 模型 
训练 ， 测 试 集 用 于 模型 验证 。 
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2.4 小 麦 倒伏 类 型 分 类 模型 


2.4.1 机 器 学 习 分 类 模型 

(1) 文 持 向 量 机 。SVM 是 一 种 常用 于 分 类 和 
回归 分 析 的 机 器 学 习 算法 所。 其 核心 思想 是 找到 
一 个 最 优 的 超 平面 ， 以 最 大 程度 地 分 开 不 同类 别 的 
数据 样本 。SVM 在 数学 模型 结构 构建 中 简单 且 有 
效 ， 对 小 样本 、 非 线性 和 高 维度 数据 表现 优异 ， 广 
泛 应 用 于 图 像 信息 提取 、 模 式 识别 和 数据 挖掘 等 
领域 ”。 

(2) KK 最 近邻 (K-Nearest Neighbor, KNN)。 
作为 机 器 学 习 算 法 中 最 基础 的 算法 之 一 ， 简 单 易 
懂 ， 并 且 对 于 非 线性 的 数据 集 表现 良好 ， 因 此 篆 用 
于 一 些 分 类 任务 模型 2 KNN 的 核心 思想 是 通过 
计算 待 预测 样本 属性 和 标签 样本 属性 之 间 的 距离 来 
进行 分 类 。 通 过 查看 最 近邻 居所 属 的 标签 ， 采 用 多 
数 表决 法 来 判断 样本 所 属 类 别 ， 从 而 实现 分 类 
预测 。 

(3) 决策 树 (Decision Tree，DT)。DT 是 一 种 
监督 学 习 模 型 。 通 过 树 形 结构 处 理 离散 和 连续 特 
征 ， 无 需 预 处 理 。 核 心思 想 是 通过 决策 规则 对 输入 
数据 划分 ， 以 实现 分 类 。 从 根 节点 开始 ， 逐 步 划 分 
样本 数据 为 不 同类 别 或 数值 。 随 后 ， 在 构建 过 程 选 
择 最 佳 特征 划分 数据 ， 剪 枝 简 化 决策 树 ， 避 免 过 拟 
合 。 最 终 ， 根 据 特 征 判 断 分 类 输入 样本 。 

(4) 朴素 贝 叶 斯 (Naive Bayes，NB ) 。 该 分 类 
算法 以 概率 统计 知识 为 基础 ， 核 心思 想 是 基于 贝 叶 
斯 定理 和 特征 之 间 条 件 独 立 性 假设 。 根 据 图 像 提取 
颜色 直方 图 特征 ， 并 利用 训练 数据 统计 每 个 类 别 出 
现 的 概率 。 随 后 ， 根 据 其 出 现 的 概率 ， 计 算 条 件 概 
率 。 最 后 通过 后 验 概率 ， 将 待 分 类 样本 分 配给 具有 
最 有 可 能 的 类 别 ， 作 为 预测 结 
2.4.2 深度 学 习 分 类 模型 

基于 深度 学 习 CNN 的 特征 提取 方法 被 广泛 应 
用 于 图 像 处 理 任务 。 其 核心 思想 是 通过 多 层 神经 网 
络 学 习 高 级 抽象 特征 和 表达 。 相 较 于 传统 的 机 需 学 
习 方 法 ， 深 度 学 习 模 型 能 够 自动 从 原始 数据 中 学 习 
到 更 加 复杂 的 特征 表达 。 本 人 研究 采用 ResNet 和 Effi- 
cientNetV2 作为 小 麦 倒 伏 类 型 检测 的 基础 模型 。 
ResNet 模 型 >! 引入 了 残 差 块 ， 使 网 络 架 构 能 够 有 
更 深层 的 训练 ， 有 助 于 捕获 更 复杂 和 抽象 的 特征 。 


由 于 输入 网 络 的 数据 尺寸 较 大 ， 本 研究 采用 更 深层 
和 更 多 通道 数 的 ResNet101， 以 更 好 地 提取 图 像 的 
特征 用 于 麦 倒伏 类 型 检测 。EfficientNetV2 2 遵循 
EfficientNet 的 思想 ， 通 过 等 比例 地 调整 网 络 的 深 
度 、 宽 度 和 分 辨 率 ， 在 不 增加 计算 复杂 性 的 情况 下 
提高 模型 性 能 。EfficientNetV2 引 入 新 的 模块 Fused- 
MBConv 和 渐进 式 学 习 策略 来 进一步 改进 模型 性 
能 。EfficientNetV2 整体 解决 了 因 图 像 尺 寸 问 题 导 
致 的 训练 速度 慢 和 模型 精度 差 等 问题 。 


2.5 基于 EfficientNetV2 模型 结构 改进 


本 研究 提出 一 种 基于 EfficientNetV2 的 改进 模 
型 ， 在 不 增加 计算 量 的 前 提 下 ， 提 升 模型 分 类 精 
度 ， 并 针对 不 平衡 数据 集 能 够 得 到 较 好 的 分 类 效 
果 。 图 5 显示 了 改进 模型 的 整体 框架 。 输 入 网 络 的 
数据 为 424 张 不 同 尺 寸 的 小 麦 试验 田 分 割 图 像 。 首 
先 采 用 ConvBNAct 普 通 卷 积 层 改变 输入 数据 的 通 
道 数 。 随 后 ， 通 过 神经 网 络 结构 搜索 (Neural Ar- 
chitecture Search, NAS) 优化 训练 效率 和 参数 效 
率 ， 模 型 前 3 层 采 用 Fused-MBConv， 后 3 层 采用 结 
合 CA 注 意 力 机 制 改 进 的 MBConv-C 卷 积 层 ， 通 过 
连接 输出 层 将 数据 输入 给 分 类 器 。 最 终 ， 采 用 解决 
难 易 样本 数据 不 均衡 的 损失 水 数 渐 进 式 优 化 分 类 
器 ， 提 升 模型 针对 不 均衡 数据 的 分 类 效果 。 
2.5.1 基于 CA 注意 力 机 制 改进 的 MBConv-C 

图 像 分 类 任务 中 卷 积 模块 常用 于 提取 图 像 特 
征 。ResNet 分 类 网 络 采用 残 差 结构 的 卷 积 提 取 网 络 
特征 。 但 残 差 结 构 的 卷 积 采 用 先 降 维 后 升 维 的 方式 
提取 网 络 特征 ， 在 操作 过 程 中 可 能 导致 信息 丢失 等 
问题 中。 本 研究 采用 倒 残 差 结构 的 Fused-MBConv 
和 MBConv-C 模 块 ， 以 先 升 维 再 降 维 形 成 了 稀 蚊 特 
征 ， 降 低 了 信息 损失 。 其 中 MBConv-C 模 块 首先 将 
输入 的 特征 通过 包含 BN 和 SiLU 激 活 函 数 的 普通 卷 
积 进 行 升 维 操作 ， 并 采用 深度 卷 积 减少 运算 量 和 参 
数 数量 ， 随 后 通过 注意 力 机 制 分 配 通道 权重 ， 在 接 
入 包含 BN 层 的 普通 卷 积 进行 降 维 ， 最 后 接 入 Drop- 
out 层 输出 特征 。 通 过 MBConv-C 模 块 使 得 网 络 参 
数 和 计算 量 大 大 降低 。 在 卷 积 过 程 中 注意 力 机 制 的 
选择 将 会 极 大 影响 模型 分 类 的 性 能 ， 未 改进 的 MB- 
Conv-C 采 用 SE (Squeeze and Excitation) 注意 力 机 
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图 5 EfficientNetV2-C 网络 结构 图 


Fig. 5 EfficientNetV2-C network structure diagram 


制 增强 关键 信息 的 提取 能 力 ， 如 图 6 (a) 所 示 。 然 
而 ，SE 注 意 力 机 制 只 考虑 通过 建 模 通道 关系 来 重 
新 衡量 每 个 通道 的 重要 性 ， 无 法 捕 换 空间 维度 上 的 
注意 力 ， 因 此 ， 更 加 适用 于 通道 数 较 多 的 场景 。 为 
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(a)Squeeze-and-Excitation Block 


增强 卷 积 神经 网 络 的 特征 提取 能 力 ， 本 研究 引入 可 
以 同时 考虑 通道 维度 和 空间 维度 上 的 CA 注意 力 机 
制 鸣 ， 如 图 6 (b) 所 示 。 


| Input 


Residual 


CXHXW 


CXH? X Avg Pool Y Avg Pool CXIXW 
Concat+ Conv2d CirX 1X (W+H) 
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Re-weight CXHXW 


| Output 


(b) Coordinate Attention Block 


图 6 注意 力 机 制 原理 图 


Fig. 6 Schematic diagram of the attention mechanism 


CA 注意 力 机 制 是 一 种 基于 类 型 坐标 的 注意 力 
机 制 ， 通 过 在 通道 注意 力 中 移入 类 型 信息 ， 使 模块 
在 不 同 空 间 尺 度 上 对 特征 图 进行 自 适应 的 调整 ， 从 
而 扩大 移动 网 络 参与 范围 ， 实 现 增强 移动 网 络 学 习 
特征 的 表达 能 力 。CA 注意 力 机 制 具体 步 又 可 分 为 
Coordinate {f E\ fix A FI Coordinate Attention 生成 。 


Coordinate {rj Bite A Sah e ES Yh 1 ER Z VA 
息 ， 将 全 局 池 化 分 为 两 个 一 维 全 局 池 化 操作 ， 分 为 
编码 水 平和 垂直 方向 的 特征 ， 如 公式 (1) 一 (3) 
所 示 。 


二 -三文 Hoy Delis) (1) 
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Zh) == > x(h,i) (2) 
awi > x (jwé) (3) 


OP, 2. 25h cae aT sz! (A) 
表示 治 着 水 平 坐标 聚合 特征 ; z*(w ) 表 示 沿 着 垂直 
坐标 聚合 特征 ; Hn ARIE, pixel; Wal 
像 宽 度 ，pixel; x 表示 给 定 输 入 ; c 为 通道 个 数 ， 
个 。 通 过 上 述 公 式 从 不 同 的 方向 集成 特征 ， 输 出 一 
对 方向 可 知 的 特征 图 ， 人 允许 attention block 捕捉 单 
方向 上 的 长 距离 关系 同时 保留 另 一 个 方向 上 的 空间 
信息 ， 帮 助 网 络 更 准确 地 定位 目标 。Coordinate At- 
tention 生成 的 步骤 ， 首 先 将 宽度 与 高 度 方向 的 特征 
图 进行 拼接 ， 通 过 卷 积 模块 降 维 ， 随 后 将 数据 批量 
归 一 化 送 入 Sigmoid 激 活 函 数 ， 最 终 获 取 特 征 图 了 
如 公式 (4) 所 示 。 

f= 6(F([z',z"])) (4) 

其 中 ,为 卷 积 变换 函数 ; Lz", 2") 表示 沿 空 
间 维 度 的 级 联 操作 ; 6 为 非 线 性 激活 函数 ; 
fe RW 表示 在 水 平方 向 和 重 直 方向 上 编码 空 
间 信 息 的 中 间 特 征 图 。 随 后 分 别 在 水 平 与 垂直 方向 
利用 卷 积 变换 函数 将 特征 图 /变换 为 与 输入 x 具 有 
相同 通道 数 的 张 量 ， 并 沿 空间 维度 将 /分 成 
fhe Re ALS eR" 两 个 独立 的 张 量 输入 至 sig- 
moid 激活 函数 ， 最 终 输 出 两 个 方向 的 注意 力 权重 ， 
如 公式 (5) 和 公式 (6) 所 示 。 

g' =0(F,(f")) (5) 
g” =o(F.(f")) (6) 

其 中 ，g“* 为 水 平方 向 权重 ; g" 为 垂直 方向 权 
重 ,， 最 后 在 原始 特征 图 上 通过 乘法 加 权 计 算 ， 结合 
两 个 方向 注意 权重 并 扩展 可 获取 Coordinate Atten- 
tion 输出 的 >， 如 公式 〈7) 所 示 。 

yelisj) = xij) X gc) X gl) (7) 
2.5.2 ”损失 函数 

损失 函数 作为 深度 学 习 模 型 组 成 的 重要 模块 之 
一 ， 通 常用 于 衡量 模型 的 预测 结果 与 真实 结果 之 间 

异 的 指标 。 合 适 的 损失 函数 将 会 给 模型 训练 带 来 
积极 的 效果 。 在 大 多 数 的 分 类 任务 中 ， 通 常 使 用 交 
LFI (Cross Entropy, CE) (FARA RAL. ERE 


型 对 于 正确 类 别 的 预测 概率 视 为 最 大 化 的 目标 ， 同 
时 惩罚 模型 对 于 错误 类 别 的 预测 概率 。 对 于 单个 样 
本 来 说 ， 交 叉 凡 损失 的 计算 如 公式 (8) 所 示 。 

L(y,p)= ->y,x log(p;) (8) 

其 中 ,yy 表示 第 ;个 类 别 是 否 为 真实 类 别 ; pK 
示 第 ;个 类 别 的 概率 ; L(y, p) BAN Be SCI PRL; 
上》 表 示 测 量 真实 概率 分 布 ; p 表 示 预 测 概率 分 布 。 在 
实际 应 用 中 ， 通 党 存在 采集 的 数据 每 个 类 别 之 间 样 
本 数量 相差 较 大 。 因 此 ， 为 了 使 模型 更 加 关注 样本 
较 少 的 类 别 ， 需 要 将 不 同类 别 的 损失 进行 加 权 ， 如 
公式 (9) 所 示 。 

L(y,p) = -> w, X y, x log(p,) (9) 

其 中 ，w, 表 示 第 i 个 类 别 的 权重 。 权 重 的 选择 
通常 是 基于 经 验 或 直觉 的 ， 而 不 是 根据 数据 或 严格 
的 统计 分 析 确 定 的 ， 因 此 可 能 导致 对 权重 的 选择 存 
在 主观 性 ， 会 影响 模型 的 训练 效果 。 为 解决 不 平衡 
数据 集 和 难 易 样本 的 学 习 ，Lin 等 ”提出 一 种 基 
于 二 分 类 交叉 炉 的 改进 损失 水 数 Focal Loss， 通 过 
引入 一 个 动态 缩放 因子 ， 动 态 降低 训练 过 程 中 易 
区 分 样本 的 权重 ， 更 多 关注 难 区 分 的 样本 ， 如 公 
式 (10) 所 示 。 

FL(p)= -a(lp)log(7p) (10) 

其 中 ，a 表 示 类 别 权 重 ; 4 表示 难 分 样本 权重 ; 
了 表示 模型 给 出 的 正 类 别 预测 概率 ; (1-p) 表示 负 
类 别 的 概率 。Focal Loss 能 够 在 不 破坏 原 数 据 分 布 
的 情况 下 ， 解 决 模型 因数 据 分 类 不 均 导致 的 性 能 问 
题 。 但 面 对 特 别 困难 的 样本 时 会 极 大 影响 模型 的 稳 
定性 ， 其 次 Focal Loss 作为 一 种 静态 的 损失 函数 ， 
无 法 适应 不 同类 别 的 分 布 变 化 。 本 研究 采用 Focal 
Loss AY Bx dE tit FE ek BC Class-Balanced Focal Loss 
(CB-Focal Loss), ， 能 够 根据 样本 类 别 的 分 布 变化 动 
态 调整 每 个 类 别 间 的 权重 ， 使 模型 学 习 更 加 均衡 ， 
防止 模型 过 度 偏向 数量 较 多 的 类 别 ， 并 且 拥 有 更 好 
的 泛 化 性 。 具 体 如 公式 (11) 所 示 。 


cB =~ Xp 'log(p) (11) 


RE, AAT EE, A Focal 


Loss 中 的 a 权重 ,实现 根据 类 别 分 布 动态 调整 权重 
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2.6 试验 设置 与 评价 指标 


本 研究 中 所 有 网 络 模型 均 在 Linux 服务 器 下 搭 
建 ， 深 度 学 习 模 型 基于 PyTorcn 实现 ， 版 本 为 1.7.1， 
Python 版 本 为 3.8，CUDA 11.0, Python 程序 的 开发 
环境 为 VScode ， 硬 件 采用 NVIDIA RTX A5000 i 
卡 在 服务 器 上 进行 试验 ， 显 存 大 小 为 16G，CPU 采 
用 Intel (R) Xeon (R) Platinum 8358P CPU@ 
2.60GHz， 模 型 推理 训练 时 采用 Efficientnet-m. pth 
预 训 练 权重 。 模 型 训练 超 参数 设置 如 下 : 受 硬件 参 
数 限制 batch size 设 置 为 16，epoch 设 置 为 100， 初 
台 学 期 率 为 0.001， 学 习 率 变化 策略 为 等 间隔 变化 ， 
步 幅 为 2， 训 练 阶段 使 用 SGD ”优化 器 ， 动量 设 
置 为 0.9， 权 重 衰退 设置 为 0.0001。 

为 检验 模型 训练 的 效果 是 否 能 够 适用 于 复杂 麦 
田 环境 下 小 麦 倒伏 类 型 预测 ， 本 研究 采用 精确 度 
(Accuracy) 、 准 确 率 (Precision) 、 召 回 率 (Recall) 
和 已 分 数 (Fi-Score) 评估 模型 (公式 (12) ~A 
式 (15) )。TP、TN、FP、FN 分 别 为 真正 类 、 真 
负 类 、 假 正 类 、 假 负 类 。 其 中 精确 度 表示 模型 正确 
分 类 的 样本 数量 占 总 样本 数量 的 比例 ， 精 度 越 高 ， 
表示 模型 分 类 的 准确 性 越 高 ，F 分 数 是 准确 率 和 召 
回 率 的 综合 度量 ， 是 分 类 模型 常用 的 综合 评价 指 
标 ， 能 够 避免 精确 度 或 召回 率 出 现 单一 极 大 值 ， 并 
在 准确 率 和 召回 率 之 间 取 得 平衡 。 

TP + TN 


Accuracy = TP + TN + FP + FN (12) 
_. _ TP 
Precision = eT (13) 
TP 
Recall = TP + FN (14) 
2 X Precision X R 
Pedes recision ecall (15) 


Precision + Recall 


3 结果 与 讨论 


3.1 机 器 学 习 分 类 结果 


图 7 展示 了 使 用 4 种 机 需 学 习 分 类 器 对 无 人 机 3 
种 不 同 飞 行 高 度 获 取 的 小 麦 图 像 倒伏 类 型 进行 分 类 
的 平均 结果 。 从 图 7 中 可 知 ， 对 比 4 种 模型 的 分 类 
效果 ，SVM 分 类 器 表现 良好 ,平均 准确 率 高 达 
81.95%， 精 准 度 为 83.93%， 召 回 率 为 86.22%, F, 
值 为 84.10%。 而 决策 树 对 于 图 像 分 类 任务 存在 一 定 


限制 ， 特 别 是 当 图 像 具 有 大 量 像素 和 复杂 特征 ， 并 
且 这 些 特 征 之 间 存 在 高 度 非 线 性 的 关系 时 ， 决策 树 
很 难 捕 捉 这 些 复杂 特征 ， 导 致 模型 分 类 效果 较 
SVM 差 ， 其 平均 精度 仅 为 79.56%。 而 针对 KK 最 近 
邻 算 法 和 朴素 贝 叶 斯 算法 ， 数 据 的 尺寸 和 分 辩 率 的 
变化 会 极 大 地 影响 模型 的 分 类 效果 。 当 输入 的 图 像 
具有 高 维 的 像素 值 特征 时 ， 可 能 会 导致 “维度 灾 
难 ” 问 题 ， 因 此 这 两 种 模型 的 平均 分 类 精度 仅 为 
59.32%. 


100 -- 
SVM Decision Tree KNN Naive Bayes 
86,220 
81.95% 83,93% man 84.10% 
ari “78.56% 79.47% 79.32% 78.95% 
| A 59.48% 59,56" ost 86 58.47% 
a“ in 58.74%, 58.95% 57,46% 
ae 
FA 40 上 
20 上 
0 i | 1 1 汪汪 Lamm | 
ACC Precision Recall F -Score 


评价 指标 
图 7 四 种 机 器 学 习 分 类 器 (SVM DT KNN NB ) 分 类 结果 
Fig. 7 Classification results of four machine learning classifiers 


(SVM, DT, KNN, NB) 


表 1 展 示 了 SVM 分 类 模型 在 无 人 机 3 种 不 同 飞 
行 高 度 下 获取 小 麦 图 像 的 不 同 倒伏 类 型 的 分 类 结 
果 。 根 据 表 1 可 知 ， 不同 飞行 高 度 对 SVM 分 类 的 效 
果 影 响 较 小 ， 当 高 度 为 45 m 时 准确 率 最 高 ， 为 
83.51%。 三 个 飞行 高 度 下 倒伏 类 型 在 根部 的 分 类 效 
果 最 好 ， 其 中 召回 率 均 达到 100%。 模 型 均 能 够 正 
确 匹 配 所 有 真实 的 正 例 。SVM 模 型 的 分 类 结果 值 
彼此 相近 ， 说 明 输 入 数据 类 别 的 不 平衡 并 不 会 影响 
模型 的 分 类 效果 ， 且 SVM 分 类 模型 能 够 有 效 解 决 
数据 高 维 问题 ， 对 中 小 型 数据 集 拥 有 较 好 的 分 类 
效果 。 


3.2 深度 学 习 分 类 结果 


表 2 展 示 了 3 种 深度 学 习 模 型 的 分 类 结果 。 从 
表 2 可 以 看 出 ， 对 于 ResNet101 和 EfficientNetV2， 
随 着 无 人 机 飞行 高 度 的 上 升 ， 两 种 模型 的 准确 率 都 
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R1 使 用 SVM 分 类 器 对 3 个 高 度 下 每 个 类 别 小 麦 倒伏 类 型 


分 类 的 结 


果 


Table 1 Results of using SVM classifier to categorize the types 


of lodging wheat for each category at three heights 


高 度 /m ”评价 指标 RENKA ”根部 倒伏 /% 茎 部 倒伏 /% 

Precision 82.13 81.56 79.43 

Recall 83.45 100.00 72.81 

F -Score 84.23 84.23 77.79 
Accuracy/% 81.33 

Precision 83.56 95.13 85.50 

Recall 85.11 100.00 79.35 

= F -Score 84.11 98.73 82.44 
Accuracy/% 83.51 

Precision 84.47 85.47 78.02 

Recall 73:97 100.00 81.28 

四 F -Score 82.30 82.45 80.60 
Accuracy/% 81.00 


E FÉR, ResNetl0l 的 准确 率 由 81.57% 下降 至 
表 2 使 用 3 种 深度 学 习 分 类 模型 对 3 种 高 度 下 每 个 类 别 小 麦 倒伏 类 型 分 类 结果 


Table 2 Results of using the three deep learning classification models to categorize the types of wheat lodging for each category at the 


78.04%; EfficientNetV2 的 准确 率 由 84.40% 下 降 至 
81.61%。 实 验 结果 表明 ， 两 种 深度 学 习 模 型 的 分 类 
性 能 都 受 无 人 机 的 飞行 高 度 影响 ， 主 要 原因 为 在 相 
同 的 参数 条 件 下 ， 飞 行 高 度 越 低 ， 获 取 的 图 像 更 清 
晰 ， 图 像 中 富 含 内 容 更 丰富 且 特 征 更 明显 ， 因 此 深 
度 学 习 模 型 能 够 提取 更 多 有 用 特征 。 对 比 上 述 两 种 
分 类 模型 ，EfficientNetV2 的 分 类 结果 上 略 优 于 
ResNet101， 因 此 本 研究 选择 EfficientNetV2 作 为 基 
础 分 类 模型 。 由 表 2 可 得 知 ，EfficientNetV2 对 每 一 
类 的 分 类 结果 ， 每 一 类 的 Precision 、Recall、 已 分 
数 结果 数值 间 相 差 较 大 ， 呈 震荡 趋势 。 例 如 ， 高 度 
为 15 m 时 未 倒伏 的 小 麦 的 五 分 数 高 达 88.09%， 而 
茎 部 倒伏 的 五 值 仅 有 79.05%。 产 生 上 述 问 题 的 主 
要 原因 是 输入 分 类 模型 的 数据 不 均衡 。 深 度 学 习 模 
型 在 面 对 不 均衡 数据 集 时 容易 偏向 于 预测 数量 较 多 
的 类 别 ， 而 对 数量 较 少 的 类 别 在 训练 过 程 中 学 习 的 
类 别 特征 较 少 ， 从 而 降低 了 预测 能 


three heights 
ResNet101 EfficientNetV2 EfficientNetV2-C 
高 度 /m ”倒伏 类 型 Precision/% Recall/% F, -Score/% Precision/% Recall/% F,-Score/% Precision/% Recall/% Fi-Score/% 

未 倒伏 77.42 90.00 83.24 80.08 92.50 88.09 97.53 98.75 98.14 

根部 倒伏 84.71 84.71 84.71 88.59 85.53 87.03 96.59 100.00 98.27 

is 茎 部 倒伏 83.12 71.11 76.65 82.22 73.78 79.05 98.84 94.44 96.59 
Accuracy/% 81.57 84.40 97.65 

未 倒伏 77.08 92.50 84.09 83.72 90.00 86.75 84.62 96.25 90.06 

根部 倒伏 84.21 75.29 79.50 79.55 82.35 80.92 92.13 96.47 94.25 

茎 部 倒伏 77.11 71.11 73.99 76.54 68.89 72.51 93.59 81.11 86.90 
Accuracy/% 79.22 82.00 92.5 

未 倒伏 79.79 93.75 86.21 81.11 91.25 85.88 87.95 91.25 89.57 

根部 倒伏 78.31 76.47 77.38 85.33 75.29 80.00 87.21 93.75 90.36 

i 茎 部 倒伏 75.64 65.56 70.24 73.33 73.33 73.33 92.41 81.11 86.39 
Accuracy/% 78.04 81.61 90.59 


对 HE EfficientNetV2 与 EfficientNetV2-C, M 
表 2 可 以 得 知 ， 虽 然 EfficientNetV2-C 也 受到 无 人 
机 飞行 高 度 的 影响 ， 但 改进 后 的 模型 的 分 类 效果 相 


果 ，EfficientNetV2-C 在 3 种 高 度 下 的 每 一 类 分 类 的 
Precision、Recall 、 已 分 数 结果 数值 间 相 差 较 小 ， 表 
明 本 研究 改进 的 模型 能 够 有 效 地 解决 因数 据 不 均衡 


较 于 原 模 型 的 平均 准确 率 有 明显 提升 。 随 着 飞行 高 
度 的 升 高 ， 准 确 率 由 97.65% 降低 至 90.$9%。 此 外 ， 
对 比 不 同 无 人 机 飞行 高 度 下 3 种 倒伏 类 型 的 分 类 效 


而 导致 的 模型 分 类 结果 不 均衡 且 分 类 效果 差 等 问 
题 。 其 次 ， 根 部 倒伏 在 不 同 高 度 下 的 分 类 效果 均 优 
于 其 他 两 类 ， 这 可 能 是 因为 根部 倒伏 的 数据 质量 要 
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高 于 其 他 两 类 。 保持 相同 趋势 ,损失 孔 数 训练 曲线 与 验证 曲线 在 保 


用 于 小 麦 倒伏 类 型 分 类 的 EfficientNetV2-C 精 
度 与 损失 函数 训练 过 程 如 图 8 所 示 。 在 结合 新 的 
CA 注意 力 机 制 与 CB-Focal Loss 的 条 件 下 ， 模 型 在 


持 相 同 下 降 趋 势 的 情况 下 验证 集 损失 函数 略 大 于 训 
练 集 损失 函数 ， 这 表明 模型 在 训练 时 遵循 了 一 个 均 
匀 而 温和 的 趋势 ， 且 损失 函数 最 终 趋 于 收敛 ， 模 型 


训练 不 同 高 度 的 数据 集 时 ， 训 练 精度 与 验证 精度 均 不 存在 过 拟 合 现象 。 模 型 预测 的 结果 如 图 9 所 示 。 
it A, be 
S = g’ 
: 训练 轮 数 ESA 训练 轮 数 
(a)15 m 准确 率 训练 曲线 (b)15 m 损失 函数 训练 曲线 (c)45 m 准确 率 训练 曲线 
‘mente MA mae > 


(d)45 m 损失 函数 训练 曲线 


(e)91 m 准确 率 训 练 曲 线 


(£)91 m 损失 函数 训练 曲线 


图 8 改进 EfficientNetV2-C 模 型 在 不 同 高 度 下 训练 与 验证 模型 精度 与 损失 训练 过 程 


Fig. 8 Improvement of EfficientNetV2-C model for training and validation of model accuracy and loss training 


process at different altitudes 


3.3 机 器 学 习 模型 与 深度 学 习 模 型 比较 


本 节 基 于 3.1 节 机 器 学 习 SVM 分 类 结果 与 
3.2 节 深度 学 习 EfficientrNetV2-C 分 类 结果 。 基 于 本 
研究 的 数据 集 ， 基 于 深度 学 习 的 EfficientNetV2-C 
模型 拥有 更 好 的 分 类 性 能 ， 与 SVM 相 比 平均 准确 
HEFT 11.63%, 平均 精确 度 提升 8.40%， 平均 召回 
率 提升 6.34%， FE F APR HE Ft 8.18%. Efficient- 
NetV2-C Æ 15 mm 时 提升 最 为 明显 ， 其 中 准确 率 提升 
16.32%， 精 确 度 提 升 16.61%， 召 回 率 提升 12.31% ， 
F, Ad HEFL 15.59%., SRE TIA, XF LOL a AJ 
SVM 分 类 模型 ， 因 SVM 分 类 器 通常 使 用 手工 设计 
的 特征 ， 这 些 特征 可 能 不 足以 捕捉 到 复杂 的 图 像 特 
征 ， 而 深度 学 习 模 型 EfficientNetV2-C 在 较 低 高 度 
时 提升 分 类 性 能 明显 。 这 是 由 于 无 人 机 飞行 较 低 高 
度 时 拍摄 照片 包含 特征 信息 更 丰富 ， 深 度 学 习 模 型 
更 适用 于 高 维 数据 且 用 于 处 理 具 有 大 量 特征 的 数 
据 ， 并 且 深 度 学 习 可 以 学 习 和 表示 复杂 的 非 线 性 关 


系 ， 从 而 提高 特征 提取 的 表达 能 力 和 模型 的 分 类 性 
能 。 综 合 对 比分 类 性 能 和 分 类 结果 ， 本 研究 认为 
EfficientNetV2-C 是 基于 无 人 机 图 像 的 小 麦 倒伏 类 
型 分 类 的 最 佳 模 型 。 


4 结论 


本 研究 由 在 利用 现 有 图 像 处 理 技术 对 无 人 机 在 
3 种 不 同 飞 行 高 度 (15, 45, 91m) 下 获取 的 小 麦 
试验 田 RGB 图像 的 倒伏 类 型 进行 检测 。 为 实现 这 
一 目标 ， 本 研究 利用 自主 设计 的 麦田 图 像 自 动 分 割 
算法 获取 的 单个 小 麦 试验 田 图 像 集 ， 使 用 融合 CA 
注意 力 机 制 与 Focal Loss 损失 函数 的 Efficient- 
NetV2-C 改进 模型 对 其 进行 倒伏 类 型 检测 。 结 果 表 
明 ，EfficientNetV2-C 拥 有 优异 的 倒伏 类 型 检测 性 
能 ，3 种 高 度 下 的 平均 准确 率 均 大 于 90.00%。 此 
外 ,无 人 机 飞行 高 度 会 对 深度 学 习 模 型 倒伏 类 型 检 
测 性 能 造成 影响 ， 具 体 表 现 为 随 着 飞行 高 度 的 上 
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Tere 


) 茎 部 倒伏 ) 根 部 倒伏 (c) 未 倒伏 


Torre 


(d) 葵 部 倒伏 (e) 根 部 倒伏 (了) 未 倒伏 


TEATE 


8) 茎 部 倒伏 h) 根 部 倒伏 i) RAR 
注 : 其 中 每 一 小 幅 图 左 侧 表示 长 矩形 试验 田 尺 寸 为 1.5mX15m 的 
TAMAR, AW RRMEGAR RTA 15 mX3.7 m 的 预测 结果 
图 9 EfficientNetV2-C 对 不 同 高 度 下 3 种 小 麦 倒伏 类 型 预测 


91 m 


Fig. 9 EfficientNetV2-C prediction of three types of collapse at 
different heights 


升 ， 模 型 分 类 准确 率 随 之 下 降 ， 在 最 低 高 度 15 m 
时 实现 最 高 精度 (97.65%)。 与 其 他 模型 (SVM、 
KNN, DT, NB, ResNetl01, EfficientNetV2) 相 
比 ， 模 型 在 不 同 高 度 下 的 平均 准确 率 均 提升 10% 以 
上 上。 然而， 本 研究 仅 针 对 小 麦 倒伏 类 型 进行 研究 ， 
因此 存在 一 定 的 局 限 性 。 为 进一步 验证 模型 的 普 适 
性 ， 未 来 的 研究 可 以 扩大 研究 种 类 ， 将 其 应 用 到 其 
他 农作物 的 倒伏 检测 验证 中 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公 
人 研究 成 果 有 关 的 利益 冲突 。 
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Abstract: 
[Objective] Wheat, as one of the major global food crops, plays a key role in food production and food supply. Different influencing 


factors can lead to different types of wheat lodging, e.g., root lodging may be due to improper use of fertilizers. While stem lodging is 


mostly due to harsh environments, different types of wheat lodging can have different impacts on yield and quality. The aim of this 


study was to categorize the types of wheat lodging by unmanned aerial vehicle (UAV) image detection and to investigate the effect of 


UAV flight altitude on the classification performance. 


[Methods] Three UAV flight altitudes (15, 45, and 91 m) were set to acquire images of wheat test fields. The main research methods 


contained three parts: an automatic segmentation algorithm, wheat classification model selection, and an improved classification mod- 
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el based on EfficientNetV2-C. In the first part, the automatic segmentation algorithm was used to segment the UAV to acquire the 
wheat test field at three different heights and made it into the training dataset needed for the classification model. The main steps were 
first to preprocess the original wheat test field images acquired by the UAV through scaling, skew correction, and other methods to 
save computation time and improve segmentation accuracy. Subsequently, the pre-processed image information was analyzed, and the 
green part of the image was extracted using the super green algorithm, which was binarized and combined with the edge contour ex- 
traction algorithm to remove the redundant part of the image to extract the region of interest, so that the image was segmented for the 
first time. Finally, the idea of accumulating pixels to find sudden value added was used to find the segmentation coordinates of two dif- 
ferent sizes of wheat test field in the image, and the region of interest of the wheat test field was segmented into a long rectangle and a 
short rectangle test field twice, so as to obtain the structural parameters of different sizes of wheat test field and then to generate the da- 
taset of different heights. In the second part, four machine learning classification models of support vector machine (SVM), K nearest 
neighbor (KNN), decision tree (DT), and naive bayes (NB), and two deep learning classification models (ResNet101 and Efficient- 
NetV2) were selected. Under the unimproved condition, six classification models were utilized to classify the images collected from 
three UAVs at different flight altitudes, respectively, and the optimal classification model was selected for improvement. In the third 
part, an improved model, EfficientNetV2-C, with EfficientNetV2 as the base model, was proposed to classify and recognized the lodg- 
ing type of wheat in test field images. The main improvement points were attention mechanism improvement and loss function im- 
provement. The attention mechanism was to replace the original model squeeze and excitation (SE) with coordinate attention (CA), 
which was able to embed the position information into the channel attention, aggregate the features along the width and height direc- 
tions, respectively, during feature extraction, and capture the long-distance correlation in the width direction while retaining the long- 
distance correlation in the length direction, accurate location information, enhancing the feature extraction capability of the network in 
space. The loss function was replaced by class-balanced focal loss (CB-Focal Loss), which could assign different loss weights accord- 
ing to the number of valid samples in each class when targeting unbalanced datasets, effectively solving the impact of data imbalance 
on the classification accuracy of the model. 

[Results and Discussions] Four machine learning classification results: SVM average classification accuracy was 81.95%, DT aver- 
age classification accuracy was 79.56%, KNN average classification accuracy was 59.32%, and NB average classification accuracy 
was 59.48%. The average classification accuracy of the two deep learning models, ResNet101 and EfficientNetV2, was 78.04%, and 
the average classification accuracy of ResNet101 was 81.61%. Comparing the above six classification models, the EfficientNetV2 
classification model performed optimally at all heights. And the improved EfficientNetV2-C had an average accuracy of 90.59%, 
which was 8.98% higher compared to the average accuracy of EfficientNetV2. The SVM classification accuracies of UAVs at three 
flight altitudes of 15, 45, and 91 m were 81.33%, 83.57%, and 81.00%, respectively, in which the accuracy was the highest when the 
altitude was 45 m, and the classification results of the SVM model values were similar to each other, which indicated that the imbal- 
ance of the input data categories would not affect the model's classification effect, and the SVM classification model was able to solve 
the problem of high dimensionality of the data efficiently and had a good performance for small and medium-sized data sets. The 
SVM classification model could effectively solve the problem of the high dimensionality of data and had a better classification effect 
on small and medium-sized datasets. For the deep learning classification model, however, as the flight altitude increases from 15 to 91 
m, the classification performance of the deep learning model decreased due to the loss of image feature information. Among them, the 
classification accuracy of ResNet101 decreased from 81.57% to 78.04%, the classification accuracy of EfficientNetV2 decreased from 
84.40% to 81.61%, and the classification accuracy of EfficientNetV2-C decreased from 97.65% to 90.59%. The classification accura- 
cy of EfficientNetV2-C at each of the three altitudes. The difference between the values of precision, recall, and F,-Score results of 
classification was small, which indicated that the improved model in this study could effectively solve the problems of unbalanced 
model classification results and poor classification effect caused by data imbalance. 

[Conclusions] The improved EfficientNetV2-C achieved high accuracy in wheat lodging type detection, which provides a new solu- 
tion for wheat lodging early warning and crop management and is of great significance for improving wheat production efficiency and 


sustainable agricultural development. 
Key words: wheat lodging types; image processing; deep learning; unbalanced data; machine learning; UAV 
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